Défi EGC 2016 : Analyse par Motifs Fréquents et Topic Modeling
نویسندگان
چکیده
Résumé. Dans le domaine de l’analyse de textes, l’extraction de motifs est une technique très populaire pour mettre en évidence des relations fréquentes entre les mots. De même, les techniques de topic modeling ont largement fait leurs preuves lorsqu’il s’agit de classer automatiquement des ensembles de textes partageant des thématiques similaires. Ainsi, ce papier a pour ambition de montrer l’intérêt de l’utilisation conjointe de ces deux techniques afin de mettre en évidence, sous la forme d’un graphe biparti, des mots partageant des thématiques similaires mais aussi leurs relations fréquentes, intra et inter thématiques. Les données du Défi EGC 2016 permettent de valider l’intérêt de l’approche, tout en montrant l’évolution des thématiques et des mots clés parmi les papiers de la conférence EGC sur ces onze dernières années.
منابع مشابه
Analyse de séquences d'événements avec TraMineR
Les méthodes de fouille de motifs séquentiels fréquents ont donné lieu, depuis le travail fondateur de Agrawal et Srikant (1995), à un grand nombre de travaux de recherche. La librairie TraMineR pour l’environnement statistique R cherche à rendre ces méthodes accessibles aux chercheurs de divers domaines désirant analyser ou visualiser des ensembles de séquences d’événements. Il est à noter que...
متن کاملExtraction de motifs condensés dans un unique graphe orienté acyclique attribué
Résumé. Les graphes orientés acycliques attribués peuvent être utilisés dans beaucoup de domaines applicatif. Dans ce papier, nous étudions un nouveau domaine de motif pour permettre leur analyse : les chemins pondérés fréquents. Nous proposons en conséquence des contraintes primitives permettant d’évaluer leur pertinence (par exemple, les contraintes de fréquence et de compacité), et un algori...
متن کاملUn regard lexico-scientométrique sur le défi EGC 2016
Résumé. Depuis 2001, les conférences EGC ont rassemblé 1 782 chercheurs autour de l’extraction et la gestion de connaissances. En 2016, l’association EGC réfléchit à son histoire et se projette en lançant un défi à sa communauté. Que peut-on révéler sur la communauté EGC via des approches développées en EGC ? Notre étude lexico-scientométrique apporte un éclairage sur les thématiques du congrès...
متن کاملVers une nouvelle approche d'extraction des motifs séquentiels non-dérivables
Résumé. L’extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentation condensées ont montré leur intérêt dans le domaine des itemsets, à l’heure actuelle peu de travaux considèrent ce type de représentation pour extraire des motifs. Cet article propose d’établir les premières bases formelles pour obtenir les bornes inférieures et supé...
متن کاملExtraction de co-variations entre des propriétés de sommets et leur position topologique dans un graphe attribué
Résumé. L’analyse de grands réseaux est très étudiée en fouille de données. Toutefois, les approches existantes proposent une analyse soit à un niveau macroscopique (étude des propriétés globales comme la distribution des degrés), soit à un niveau microscopique (extraction de sous-graphes fréquents ou denses). Nous proposons une nouvelle méthode qui effectue une analyse intermédiaire permettant...
متن کامل